Postavke privatnosti

Tache aveugle mortelle de l'IA : les modèles de langage visuel ne comprennent pas le « non », selon l'étude

Les modèles de langage visuel (VLM) révolutionnent la technologie, mais une étude du mit révèle leur défaut critique : une incompréhension fondamentale de la négation. Cette faiblesse peut conduire à des erreurs catastrophiques en médecine et dans d'autres applications d'IA à haut risque, car les modèles ignorent des mots comme « non » ou « non », remettant en question leur fiabilité.

Tache aveugle mortelle de l
Photo by: Domagoj Skledar/ arhiva (vlastita)

Le monde de l'intelligence artificielle (IA) progresse constamment, apportant des changements révolutionnaires dans divers secteurs, de la médecine à la fabrication. Parmi les avancées les plus prometteuses figurent les modèles dits visuo-linguistiques (VLM), des systèmes sophistiqués entraînés pour comprendre simultanément les images et le texte. Leur capacité à connecter les informations visuelles avec les descriptions linguistiques ouvre la voie à de nombreuses applications, y compris des outils de diagnostic avancés et des systèmes automatisés de contrôle de la qualité. Cependant, des recherches récentes, y compris celles menées au Massachusetts Institute of Technology (MIT), mettent en lumière une faiblesse critique de ces modèles : leur incapacité à traiter correctement les négations. Des mots comme « non », « ne pas » ou « sans » peuvent conduire à des interprétations totalement erronées, ce qui, dans des domaines d'application sensibles, peut avoir des conséquences catastrophiques.


Défaillances inattendues de l'intelligence artificielle : Le problème de la négation


Imaginez un scénario dans un cabinet de radiologie. Un médecin analyse la radiographie pulmonaire d'un patient. Il remarque un gonflement des tissus, mais observe que le cœur n'est pas hypertrophié. Dans le but d'accélérer le diagnostic et de trouver des cas similaires enregistrés, le radiologue pourrait s'appuyer sur un modèle visuo-linguistique. Si le système d'intelligence artificielle interprète mal la requête et recherche des cas de patients présentant à la fois un tissu gonflé et un cœur hypertrophié, le diagnostic initial pourrait être radicalement différent. En effet, la combinaison d'un tissu gonflé et d'un cœur hypertrophié suggère fortement des problèmes cardiaques, tandis que l'absence d'hypertrophie cardiaque, malgré le tissu gonflé, ouvre la possibilité à toute une série d'autres causes potentielles. Une telle erreur d'interprétation, causée par une incompréhension de la négation, peut orienter le processus de diagnostic dans une direction complètement fausse.


Des chercheurs du MIT, en collaboration avec des collègues d'autres institutions, ont systématiquement étudié ce problème. Leurs résultats indiquent que les modèles visuo-linguistiques montrent une propension marquée aux erreurs dans des situations réelles lorsqu'ils sont confrontés à des mots négatifs. Kumail Alhamoud, doctorant au MIT et auteur principal de l'étude, souligne : « Ces mots négatifs peuvent avoir un impact très significatif, et si nous utilisons ces modèles aveuglément, nous pouvons être confrontés à des conséquences catastrophiques. » Cet avertissement ne se limite pas au diagnostic médical ; il s'étend à toutes les applications à haut risque où les décisions sont basées sur des informations générées par ces systèmes d'IA, des véhicules autonomes au contrôle qualité dans les usines.


Comment fonctionnent les modèles visuo-linguistiques et où se produit le « court-circuit » ?


Les modèles visuo-linguistiques (VLM) sont des systèmes sophistiqués d'apprentissage automatique entraînés sur de vastes ensembles de données contenant des images et leurs descriptions textuelles correspondantes. Grâce au processus d'entraînement, les modèles apprennent à coder à la fois les images et le texte en représentations numériques, appelées plongements vectoriels. L'objectif est que le modèle apprenne à générer des vecteurs similaires pour une image et sa description correspondante. Les VLM utilisent généralement deux encodeurs distincts : un pour le traitement des images et un autre pour le traitement du texte. Ces encodeurs sont optimisés simultanément afin que leurs vecteurs de sortie soient aussi similaires que possible pour les paires image-texte sémantiquement liées.


Le problème de la négation découle de la nature même des données sur lesquelles ces modèles sont entraînés. « Les descriptions d'images expriment principalement ce qui se trouve dans les images – ce sont des étiquettes positives. Et c'est en fait tout le problème. Personne ne regarde une image d'un chien sautant par-dessus une clôture et ne la décrit par 'un chien sautant par-dessus une clôture, sans hélicoptère' », explique Marzyeh Ghassemi, professeure agrégée au MIT et auteure principale de la recherche. Étant donné que les ensembles de données d'entraînement contiennent principalement des descriptions affirmatives, les VLM n'ont tout simplement pas assez d'occasions d'apprendre à reconnaître et à interpréter correctement la négation. Le manque d'exemples où il est explicitement indiqué ce qui *n'est pas* présent dans l'image conduit les modèles à développer une sorte de « biais d'affirmation ».


Tester les limites de la compréhension : Comment les modèles ont échoué au test de la négation


Pour approfondir ce problème, les scientifiques ont conçu deux tâches de référence spécifiques (benchmark tasks) destinées à tester la capacité des VLM à comprendre la négation. Dans la première tâche, ils ont utilisé un grand modèle linguistique (LLM) pour générer de nouvelles descriptions pour des images existantes. Il a été demandé au LLM de réfléchir à des objets connexes qui ne sont *pas présents* sur l'image et de les inclure dans la description. Ils ont ensuite testé les VLM en leur donnant des requêtes avec des mots négatifs, leur demandant de récupérer des images contenant certains objets mais pas d'autres. Par exemple, un modèle pourrait être chargé de trouver des images avec un chat, mais sans chien.


La deuxième tâche consistait en des questions à choix multiples. Le VLM se voyait présenter une image et devait choisir la description la plus appropriée parmi une série d'options très similaires. Ces descriptions ne différaient que par des détails – certaines ajoutaient une référence à un objet n'apparaissant pas sur l'image, tandis que d'autres niaient un objet clairement visible. Les résultats ont été désastreux. Les modèles ont souvent échoué aux deux tâches. Dans les tâches de récupération d'images, les performances ont chuté de près de 25 % lorsque les requêtes contenaient des négations. En répondant à des questions à choix multiples, les meilleurs modèles n'ont atteint qu'une précision d'environ 39 %, tandis que certains modèles avaient des résultats au niveau d'une devinette aléatoire, voire inférieurs.


L'une des principales raisons de ces échecs réside dans le « biais d'affirmation » susmentionné. Les VLM ont tendance à ignorer les mots négatifs et à se concentrer exclusivement sur les objets mentionnés dans la requête, que ces objets soient affirmés ou niés. « Cela ne se produit pas seulement avec des mots comme 'non' et 'ne pas'. Peu importe la façon dont vous exprimez la négation ou l'exclusion, les modèles l'ignoreront tout simplement », souligne Alhamoud. Cette faiblesse s'est avérée constante pour tous les modèles visuo-linguistiques testés, y compris certains des plus connus et des plus utilisés dans l'industrie.


La recherche d'une solution : Nouveaux ensembles de données et orientations futures


Face à ce défi, les chercheurs ne se sont pas contentés d'identifier le problème. Comme première étape vers une solution, ils ont développé de nouveaux ensembles de données qui incluent explicitement des mots négatifs. En utilisant un ensemble de données existant de 10 millions de paires image-description textuelle, ils ont utilisé un grand modèle linguistique pour suggérer des descriptions connexes spécifiant ce qui est exclu des images. Ils ont ainsi obtenu de nouvelles descriptions enrichies de négations. Une attention particulière a été accordée à ce que ces descriptions générées synthétiquement paraissent naturelles, afin d'éviter que les VLM entraînés sur de telles données n'échouent ultérieurement face à des descriptions plus complexes, écrites par des humains, dans le monde réel.


Après avoir créé ces ensembles de données enrichis, l'équipe a procédé à un processus appelé réglage fin (finetuning) des VLM existants. Les résultats ont été encourageants. Le réglage fin avec les nouvelles données a entraîné des améliorations des performances dans tous les segments. La capacité des modèles à récupérer des images sur la base de requêtes avec négation s'est améliorée d'environ 10 %, tandis que le succès dans la tâche de réponse aux questions à choix multiples a augmenté de manière impressionnante de 30 %.


« Notre solution n'est pas parfaite. Nous ne faisons que redécrire des ensembles de données, ce qui est une forme d'augmentation des données. Nous n'avons même pas touché au fonctionnement de ces modèles, mais nous espérons que c'est un signe que c'est un problème soluble et que d'autres peuvent reprendre notre solution et l'améliorer », commente modestement Alhamoud. Néanmoins, ces progrès montrent que le problème n'est pas insurmontable et qu'un enrichissement ciblé des données peut apporter des améliorations significatives.


Implications plus larges et nécessité de prudence


Les résultats de cette recherche, qui seront présentés à la prestigieuse Conférence sur la vision par ordinateur et la reconnaissance des formes (Conference on Computer Vision and Pattern Recognition), ont des implications considérables. Ils servent d'avertissement important aux utilisateurs et aux développeurs de modèles visuo-linguistiques. Si quelque chose d'aussi fondamental que la compréhension de la négation est altéré, cela soulève des questions sur la fiabilité de ces systèmes dans de nombreuses applications existantes. La professeure Ghassemi souligne : « Il s'agit d'un article technique, mais il y a des questions plus larges à considérer. Si quelque chose d'aussi basique que la négation est défaillant, nous ne devrions pas utiliser les grands modèles visuo-linguistiques de la manière dont nous les utilisons actuellement – sans évaluation intensive. »


Il est donc crucial que les utilisateurs potentiels de ces technologies soient conscients de cette lacune, peut-être jusqu'ici insuffisamment perçue. Avant de mettre en œuvre des VLM dans des environnements à haut risque, il est nécessaire d'effectuer des tests approfondis, y compris des scénarios avec des négations, afin d'évaluer leur fiabilité réelle. Ce problème ne se limite pas à des mots spécifiques comme « non » ou « ne pas » ; il concerne la capacité générale des modèles à comprendre l'absence, l'exclusion ou l'opposition.


Les recherches futures pourraient se concentrer sur des modifications plus profondes de l'architecture des modèles eux-mêmes. Une direction possible est d'entraîner les VLM à traiter les informations textuelles et visuelles d'une manière qui leur permettrait de mieux comprendre les nuances sémantiques, y compris la négation. Cela pourrait impliquer le développement de mécanismes d'attention plus sophistiqués (attention mechanisms) ou de nouvelles fonctions de perte (loss functions) qui pénaliseraient explicitement une mauvaise interprétation des négations pendant l'entraînement. En outre, le développement d'ensembles de données supplémentaires, spécialisés et adaptés à des domaines d'application spécifiques tels que les soins de santé, pourrait encore améliorer les performances et la sécurité de ces outils puissants. Si les modèles visuo-linguistiques offrent sans aucun doute un potentiel énorme, garantir leur fonctionnement robuste et fiable, en particulier dans le contexte de la compréhension de la négation, reste un défi majeur pour la communauté scientifique.

Source : Massachusetts Institute of Technology

Trouvez un hébergement à proximité

Heure de création: 15 mai, 2025

Rédaction science et technologie

Notre Rédaction Science et Technologie est née d’une passion de longue date pour l’exploration, l’interprétation et la vulgarisation de sujets complexes auprès du grand public. Elle réunit des salariés et des bénévoles qui suivent depuis des décennies l’évolution de la science et de l’innovation technologique, des découvertes en laboratoire aux solutions qui transforment la vie quotidienne. Bien que nous écrivions au pluriel, chaque texte est rédigé par une personne réelle dotée d’une vaste expérience éditoriale et journalistique, ainsi que d’un profond respect pour les faits et les informations vérifiables.

Notre rédaction fonde son travail sur la conviction que la science est plus forte lorsqu’elle est accessible à tous. C’est pourquoi nous recherchons la clarté, la précision et la lisibilité, sans simplifications qui nuiraient à la qualité du contenu. Nous passons souvent des heures à étudier des recherches, des documents techniques et des sources spécialisées afin de présenter chaque sujet de manière à susciter l’intérêt du lecteur plutôt qu’à le surcharger. Dans chaque article, nous nous efforçons de relier les connaissances scientifiques à la vie réelle, en montrant comment les idées issues des centres de recherche, des universités et des laboratoires technologiques façonnent le monde qui nous entoure.

Notre longue expérience journalistique nous permet d’identifier ce qui est réellement important pour le lecteur, qu’il s’agisse de progrès dans l’intelligence artificielle, de découvertes médicales, de solutions énergétiques, de missions spatiales ou d’appareils qui entrent dans notre quotidien avant même que nous en imaginions les possibilités. Notre regard sur la technologie n’est pas uniquement technique ; nous nous intéressons aussi aux histoires humaines derrière les grandes avancées – chercheurs qui passent des années sur leurs projets, ingénieurs qui transforment des idées en systèmes fonctionnels, visionnaires qui repoussent les frontières du possible.

Un fort sentiment de responsabilité guide également notre travail. Nous voulons que le lecteur puisse avoir confiance dans les informations que nous fournissons, c’est pourquoi nous vérifions les sources, comparons les données et retardons la publication si un élément reste incertain. La confiance se construit plus lentement qu’une actualité ne s’écrit, mais nous croyons que seul un journalisme de cette rigueur a une valeur durable.

Pour nous, la technologie est plus qu’un ensemble d’appareils, et la science plus qu’une théorie. Ce sont des domaines qui stimulent le progrès, façonnent la société et offrent de nouvelles possibilités à tous ceux qui souhaitent comprendre comment le monde fonctionne aujourd’hui et où il se dirige demain. C’est pourquoi nous abordons chaque sujet avec sérieux mais aussi curiosité, car la curiosité est la porte d’entrée des meilleurs textes.

Notre mission est de rapprocher les lecteurs d’un monde qui change plus vite que jamais, avec la conviction qu’un journalisme de qualité peut servir de pont entre experts, innovateurs et tous ceux qui veulent comprendre ce qui se passe derrière les titres. Nous voyons là notre véritable tâche : transformer le complexe en compréhensible, le lointain en proche et l’inconnu en source d’inspiration.

AVIS À NOS LECTEURS
Karlobag.eu fournit des actualités, des analyses et des informations sur les événements mondiaux et les sujets d'intérêt pour les lecteurs du monde entier. Toutes les informations publiées sont fournies à titre informatif uniquement.
Nous soulignons que nous ne sommes pas des experts dans les domaines scientifique, médical, financier ou juridique. Par conséquent, avant de prendre toute décision basée sur les informations de notre portail, nous vous recommandons de consulter des experts qualifiés.
Karlobag.eu peut contenir des liens vers des sites externes de tiers, y compris des liens affiliés et des contenus sponsorisés. Si vous achetez un produit ou un service via ces liens, nous pouvons percevoir une commission. Nous n'avons aucun contrôle sur le contenu ou les politiques de ces sites et déclinons toute responsabilité quant à leur exactitude, leur disponibilité ou toute transaction effectuée via ces liens.
Si nous publions des informations sur des événements ou des ventes de billets, veuillez noter que nous ne vendons pas de billets, ni directement ni par l'intermédiaire. Notre portail informe uniquement les lecteurs des événements et des possibilités d'achat via des plateformes de vente externes. Nous mettons en relation les lecteurs avec des partenaires offrant des services de vente de billets, sans garantir leur disponibilité, leurs prix ou leurs conditions d'achat. Toutes les informations concernant les billets sont fournies par des tiers et peuvent être modifiées sans préavis. Nous vous recommandons de vérifier attentivement les conditions de vente auprès du partenaire choisi avant tout achat.
Toutes les informations sur notre portail peuvent être modifiées sans préavis. En utilisant ce portail, vous acceptez de lire le contenu à vos risques et périls.